1 Wstęp

W ostatnich latach zauważono spadek rozmiaru śledzia. Poniższy raport pokazuje jak zmiany następowały w czasie. Po przeprowadzonej analizie można wywnioskować, że głównymi przyczynami karłowacenia śledzi są wzrost temperatury wód oraz wzrost natężenia połowów w rejonie.

2 Podsumowanie zbioru i podstawowe statystyki

Zbiór danych składa się z 16 kolumn oraz 52582 wierszy. Zawiera informacje o śledziach - szczegoły niżej . Zakładamy, że dane w zbiorze są ułożone w sposób chronologiczny. Podczas wczytania danych, w niektórych kolumnach brakowało wartości co było oznaczone znakiem ‘?’. Aby nie usuwać pozostałych danych na rzecz jednej brakującej komórki, zastąpiono wartości brakujące wartościami sąsiadującymi u góry lub u dołu.

2.1 Opis kolumn

[ double ] X: numer pomiaru;

[ double ] length: długość złowionego śledzia [cm];

[ double ] cfin1: dostępność planktonu [zagęszczenie Calanus finmarchicus gat. 1];

[ double ] cfin2: dostępność planktonu [zagęszczenie Calanus finmarchicus gat. 2];

[ double ] chel1: dostępność planktonu [zagęszczenie Calanus helgolandicus gat. 1];

[ double ] chel2: dostępność planktonu [zagęszczenie Calanus helgolandicus gat. 2];

[ double ] lcop1: dostępność planktonu [zagęszczenie widłonogów gat. 1];

[ double ] lcop2: dostępność planktonu [zagęszczenie widłonogów gat. 2];

[ double ] fbar: natężenie połowów w regionie [ułamek pozostawionego narybku];

[ double ] recr: roczny narybek [liczba śledzi];

[ double ] cumf: łączne roczne natężenie połowów w regionie [ułamek pozostawionego narybku];

[ double ] totaln: łączna liczba ryb złowionych w ramach połowu [liczba śledzi];

[ double ] sst: temperatura przy powierzchni wody [°C];

[ double ] sal: poziom zasolenia wody [Knudsen ppt];

[ double ] xmonth: miesiąc połowu [numer miesiąca];

[ double ] nao: oscylacja północnoatlantycka [mb].

2.2 Podsumowanie wartości w poszczególnych kolumnach

length cfin1 cfin2 chel1 chel2 lcop1 lcop2 fbar recr cumf totaln sst sal xmonth nao
Min. :19.0 Min. : 0.0000 Min. : 0.0000 Min. : 0.000 Min. : 5.238 Min. : 0.3074 Min. : 7.849 Min. :0.0680 Min. : 140515 Min. :0.06833 Min. : 144137 Min. :12.77 Min. :35.40 Min. : 1.000 Min. :-4.89000
1st Qu.:24.0 1st Qu.: 0.0000 1st Qu.: 0.2778 1st Qu.: 2.469 1st Qu.:13.427 1st Qu.: 2.5479 1st Qu.:17.808 1st Qu.:0.2270 1st Qu.: 360061 1st Qu.:0.14809 1st Qu.: 306068 1st Qu.:13.60 1st Qu.:35.51 1st Qu.: 5.000 1st Qu.:-1.89000
Median :25.5 Median : 0.1111 Median : 0.7012 Median : 5.750 Median :21.435 Median : 7.0000 Median :24.859 Median :0.3320 Median : 421391 Median :0.23191 Median : 539558 Median :13.86 Median :35.51 Median : 8.000 Median : 0.20000
Mean :25.3 Mean : 0.4463 Mean : 2.0255 Mean :10.004 Mean :21.218 Mean : 12.8027 Mean :28.423 Mean :0.3304 Mean : 520367 Mean :0.22981 Mean : 514973 Mean :13.88 Mean :35.51 Mean : 7.258 Mean :-0.09236
3rd Qu.:26.5 3rd Qu.: 0.3333 3rd Qu.: 1.7936 3rd Qu.:11.500 3rd Qu.:27.193 3rd Qu.: 21.2315 3rd Qu.:37.232 3rd Qu.:0.4560 3rd Qu.: 724151 3rd Qu.:0.29803 3rd Qu.: 730351 3rd Qu.:14.16 3rd Qu.:35.52 3rd Qu.: 9.000 3rd Qu.: 1.63000
Max. :32.5 Max. :37.6667 Max. :19.3958 Max. :75.000 Max. :57.706 Max. :115.5833 Max. :68.736 Max. :0.8490 Max. :1565890 Max. :0.39801 Max. :1015595 Max. :14.73 Max. :35.61 Max. :12.000 Max. : 5.08000

3 Analiza atrybutów

Dostępność plantonu w kolejnych połowach

Długość śledzia w kolejnych pomiarach

Wykres korelacji atrybutów

Powyższy wykres przedstawia, że:

  • zagęszczenie widłonogów gat. 2 jest skorelowane z zagęszczeniem Calanus helgolandicus gat. 2 oraz Calanus finmarchicus gat. 1

  • zagęszczenie widłonogów gat. 1 jest skorelowane z zagęszczeniem Calanus helgolandicus gat. 1

  • łączne roczne natężenie połowów w regionie nie jest skorelowane z łączną liczbą ryb złowionych w ramach połowu

Wykres jednak nie wykazuje, aby któryś z czynników miał wyraźny wpływ na długość śledzia.

4 Regresja

Założenia

wielkość zbioru treningowego: 75% zbioru pierwotnego

metoda schematu uczenia: powtórzona ocena krzyżowa

liczba podziałów: 2

liczba powtórzeń: 5

liczba drzew w lesie (metoda random forest): 10

4.1 Random Forest

Wynik uczenia modelu

## Random Forest 
## 
## 39438 samples
##    15 predictor
## 
## No pre-processing
## Resampling: Cross-Validated (2 fold, repeated 5 times) 
## Summary of sample sizes: 19720, 19718, 19719, 19719, 19719, 19719, ... 
## Resampling results across tuning parameters:
## 
##   mtry  RMSE      Rsquared   MAE      
##    2    1.140847  0.5243505  0.9025615
##    8    1.104670  0.5551319  0.8685102
##   15    1.198212  0.5002069  0.9412150
## 
## RMSE was used to select the optimal model using the smallest value.
## The final value used for the model was mtry = 8.

Wpływ parametru na rozmiar śledzia

## rf variable importance
## 
##        Overall
## sst    100.000
## X       88.231
## fbar    19.086
## recr    16.014
## xmonth  15.448
## totaln  13.906
## lcop1    9.179
## lcop2    6.158
## cfin2    5.236
## cumf     4.089
## cfin1    3.388
## nao      2.576
## chel1    1.996
## chel2    1.329
## sal      0.000

Wnioski

Jak widać na poniższym wykresie najbardziej znaczącym parametrem był sst - temperatura przy powierzchni wody. Drugim był X, jednak jest to numer połowu przez co ignorujemy ten wynik. W efekcie drugim najbardziej znaczącym jest parametr natężenie połowów w regionie, który ma zdecydowanie niższą wartość niż pierwszy.

4.2 RIDGE

Wynik uczenia modelu

## Ridge Regression 
## 
## 39438 samples
##    15 predictor
## 
## No pre-processing
## Resampling: Cross-Validated (2 fold, repeated 5 times) 
## Summary of sample sizes: 19719, 19719, 19719, 19719, 19718, 19720, ... 
## Resampling results across tuning parameters:
## 
##   lambda  RMSE      Rsquared   MAE     
##   0e+00   1.330267  0.3530193  1.051281
##   1e-04   1.330266  0.3530201  1.051281
##   1e-01   1.344208  0.3395471  1.063184
## 
## RMSE was used to select the optimal model using the smallest value.
## The final value used for the model was lambda = 1e-04.

Wpływ parametru na rozmiar śledzia

## loess r-squared variable importance
## 
##          Overall
## X      1.000e+02
## sst    7.470e+01
## nao    2.442e+01
## fbar   2.306e+01
## lcop1  2.015e+01
## chel1  1.733e+01
## cfin2  3.565e+00
## totaln 3.380e+00
## cfin1  2.333e+00
## lcop2  9.246e-01
## sal    3.365e-01
## chel2  5.623e-02
## recr   2.162e-02
## xmonth 1.096e-03
## cumf   0.000e+00

Wnioski

Jak widać po zignorowaniu parametru X (numer pomiaru), najbardziej znaczącym parametrem znowu jest temperatura przy powierzchni wody. Innymi ważnymi były parametry nao, czy jak w poprzednim badaniu parametr fbar - natężenie połowów w regionie.